结合PersonAs信息允许在对话响应生成中多样化和接触响应。不幸的是,事先作品主要专注于自我的人物,并忽视了合作伙伴角色的价值。此外,在实际应用中,实际伙伴角色的可用性通常不是这种情况。本文试图通过提供一种新颖的框架来解决这些问题,这些框架利用自动合作伙伴角色生成来增强成功的对话一代。我们将强化学习纳入了一个专门设计的批评网络,以获得奖励判断。自动和人类评估的实验结果表明a)我们的框架能够产生相关,信息丰富的合作伙伴角色,甚至与地面真理合作伙伴角色相比。 b)生成的合作伙伴角色增强了后续的响应生成,从而超越了当在推理阶段缺少合作伙伴角色时超越了我们的基线和比较模型。 c)我们的框架在推理期间产生的响应比我们的基线在地面真理合作伙伴角色上的基线更具信息丰富和参与。 d)我们专门设计的批评批评网络有效地加强了我们的框架。最后,我们的框架提供了更好的解释性,并降低了对伙伴角色的外部数据库的需求。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
我们提出了一种多阶段的多代码书(MSMC)方法,用于高性能神经TTS合成。基于矢量定量的,变异的自动编码器(VQ-VAE)的特征分析仪用于编码语音训练数据的MEL频谱图,通过在多个阶段中逐渐减小为MSMC表示(MSMCR),并使用不同的时间分辨率进行逐步降低,并使用多个VQ对其进行量化它们代码书分别。通过最大程度地减少重建均方根误差(MSE)和“三重态损耗”的合并损失,对多阶段预测指标进行了训练,以逐步将输入文本序列映射到MSMCR。在合成中,神经声码器将预测的MSMCR转换为最终的语音波形。拟议的方法是由女演讲者通过16小时的英语TTS数据库进行了训练和测试。拟议的TTS的MOS得分为4.41,其表现优于基线,MOS为3.62。拟议的TTS的紧凑版本仍然可以保留高MOS得分。消融研究表明,多个阶段和多个代码手册都可以有效地实现高TTS性能。
translated by 谷歌翻译
由长期记忆复发网络(LSTM-RNN)和变压器代表的最先进的神经网络语言模型(NNLMS)和变压器变得非常复杂。当获得有限的培训数据时,它们容易过度拟合和泛化。为此,本文提出了一个总体完整的贝叶斯学习框架,其中包含三种方法,以说明LSTM-RNN和Transformer LMS的潜在不确定性。分别使用贝叶斯,高斯过程和变异LSTM-RNN或变压器LMS对其模型参数,神经激活的选择和隐藏输出表示的不确定性。有效的推理方法被用来自动选择使用神经体系结构搜索的最佳网络内部组件作为贝叶斯学习。还使用了最少数量的蒙特卡洛参数样本。这些允许贝叶斯NNLM培训和评估中产生的计算成本最小化。实验是针对两项任务进行的:AMI符合转录和牛津-BBC唇读句子2(LRS2)使用最先进的LF-MMI培训的有效的TDNN系统重叠的语音识别,具有数据增强,扬声器的适应和多种音频,频道横梁成形以进行重叠的语音。基线LSTM-RNN和Transformer LMS具有估计的模型参数和辍学正则化的一致性改进,就困惑性和单词错误率(WER)获得了两项任务。特别是,在LRS2数据上,在基线LSTM-RNN和Transformer LMS中,在贝叶斯NNLMS及其各自的Baselines之间的模型组合后,在基线LSTM-RNN和Transferes LMS上分别获得了最高1.3%和1.2%的绝对降低(相对12.1%和11.3%)。 。
translated by 谷歌翻译
太阳能动力学天文台(SDO)是NASA多光谱十年的长达任务,每天都在日常产生来自Sun的观测数据的trabytes,以证明机器学习方法的潜力并铺路未来深空任务计划的方式。特别是,在最近的几项研究中提出了使用图像到图像翻译实际上产生极端超紫罗兰通道的想法,这是一种增强任务较少通道的提高任务的方法,并且由于低下链接而减轻了挑战。深空的速率。本文通过关注四个通道和基于编码器的建筑的排列来研究这种深度学习方法的潜力和局限性,并特别注意太阳表面的形态特征和亮度如何影响神经网络预测。在这项工作中,我们想回答以下问题:可以将通过图像到图像翻译产生的太阳电晕的合成图像用于太阳的科学研究吗?分析强调,神经网络在计数率(像素强度)上产生高质量的图像,通常可以在1%误差范围内跨通道跨通道重现协方差。但是,模型性能在极高的能量事件(如耀斑)的对应关系中大大减少,我们认为原因与此类事件的稀有性有关,这对模型训练构成了挑战。
translated by 谷歌翻译
只有单个目标扬声器的语音供参考的单发语音转换(VC)已成为一个热门研究主题。现有作品通常会散布音色,而有关音高,节奏和内容的信息仍然混合在一起。为了进一步删除这些语音组件,有效地执行一声VC,我们采用随机重新采样用于音高和内容编码器,并使用互信息的各种对比对数比率上限和基于梯度反向层的对抗性相互信息学习来确保不同部分在训练过程中仅包含所需的分离表示的潜在空间。 VCTK数据集的实验显示该模型就自然性和智能性方面实现了一声VC的最新性能。此外,我们可以通过语音表示分离分别传递音色,音调和节奏的单发VC的特征。我们的代码,预训练的模型和演示可在https://im1eon.github.io/is2022-Srdvc/上获得。
translated by 谷歌翻译
跨言扬声器风格的转移旨在提取给定参考语音的语音样式,可以在任意目标扬声器的音色中复制。有关此主题的现有方法已经探索了利用语音级样式标签通过全球或本地规模样式表示进行样式转移。但是,有声读物数据集通常以本地韵律和全球类型的形式进行特征,并且很少伴有发言级风格的标签。因此,正确地将阅读方式转移到不同的扬声器上仍然是一项具有挑战性的任务。本文旨在介绍块的多尺度跨言式风格模型,以捕获有声读物的全球类型和本地韵律。此外,通过使用拟议的可切换对手分类器来解开扬声器的音色和样式,提取的阅读样式可适应不同扬声器的音色。实验结果证实,该模型设法将给定的阅读方式转移到新的目标扬声器上。在局部韵律和全球流派类型预测指标的支持下,进一步揭示了所提出的方法在多扬声器有声读物中的潜力。
translated by 谷歌翻译
阿尔茨海默氏病(AD)的早期诊断对于促进预防性护理和延迟进展至关重要。基于语音的自动广告筛选系统为其他临床筛查技术提供了一种非侵入性,更可扩展的替代方案。此类专业数据的稀缺性会导致模型选择和特征学习的不确定性。为此,本文调查了功能和模型组合方法的使用,以改善Bert和Roberta预先训练的文本编码有限数据的域微调的鲁棒性,然后在将结果的嵌入功能馈入后端分类器集合之前通过多数投票制定最终的广告检测决定。在ADRESS20挑战数据集上进行的实验表明,使用模型和功能组合在系统开发中获得了一致的性能改进。使用手册和ASR语音转录本在ADRESS20测试集上分别获得了91.67%和93.75%的最先进的AD检测精度,该准确的准确性是由48位老年人组成的。
translated by 谷歌翻译
阿尔茨海默氏病(AD)的早期诊断对于促进预防性护理以延迟进一步发展至关重要。本文介绍了建立在痴呆症Pitt copus上的基于最新的构象识别系统以自动检测的开发。通过纳入一组有目的设计的建模功能,包括基于域搜索的自动配置特异性构象异构体超参数除外,还包括基于速度扰动和基于规格的数据增强训练的基线构象体系统可显着改善。使用学习隐藏单位贡献(LHUC)的细粒度老年人的适应性;以及与混合TDNN系统的基于两次通行的跨系统逆转。在48位老年人的评估数据上获得了总体单词错误率(相对34.8%)的总体单词错误率(相对34.8%)。使用最终系统的识别输出来提取文本特征,获得了最佳的基于语音识别的AD检测精度为91.7%。
translated by 谷歌翻译
混合动力和端到端(E2E)自动语音识别(ASR)系统之间的基本建模差异在其中创造了巨大的多样性和互补性。本文研究了混合TDNN和构型E2E ASR系统的基于多通的逆转和交叉适应系统组合方法。在多通恢复中,最先进的混合动力LF-MMI训练有素的CNN-TDNN系统具有速度扰动,规格和贝叶斯学习隐藏单元供款(LHUC)扬声器的适应器,以在被恢复之前产生初始的N-tesk输出由扬声器适应构象异构体系统,使用2向跨系统得分插值。在交叉适应中,混合CNN-TDNN系统适用于构象异构体系统的1好的输出,反之亦然。在300小时的总机语料库上进行的实验表明,使用两种系统组合方法中的任何一个得出的组合系统都超过了单个系统。在NIST HUB5'00,RT03和RT03和RT02评估数据。
translated by 谷歌翻译